近日,华南师范大学环境学院应光国教授团队2021级硕士生龙小冰、史文俊副研究员等人在《Journal of Hazardous Materials》上发表了题为“Screening androgen receptor agonists of fish species using machine learning and molecular model in NORMAN water-relevant list”的论文(DOI: 10.1016/j.jhazmat.2024.133844)。该论文通过构建机器学习模型和多种鱼类雄激素受体(AR)分子模型,预测了NORMAN水相关数据集中AR激动剂,并分析了可疑AR激动剂与鱼类AR的结合模式和亲和力。结果表明,结合机器学习和分子模型可快速筛选鱼类AR激动剂,为评估新污染对鱼类生态毒性提供了新的策略。
图文摘要
全文速览
雄激素受体(AR)激动剂具有较强的内分泌干扰效应,如引起鱼类性别比例异常和性腺发育受阻。目前研究主要利用人体AR体外研究污染物与其结合能力。然而,快速预测水生生物AR激动剂方法仍然较少。本研究利用机器学习和分子模型筛选鱼类的AR激动剂。在本研究中,首先构建了多种机器学习模型,如深度森林(DF))、随机森林和人工神经网络,用于快速预测AR激动剂,获得高风险物质清单。然后,利用AlphaFold2构建了斑马鱼、黑头呆鱼、食蚊鱼、青鳉鱼和草鱼五种实验室常用鱼类AR分子模型,进一步筛选AR激动剂。最后,通过斑马鱼体内暴露实验,验证虚拟筛选结果。结果表明,深度森林机器学习模型性能优越,准确度和灵敏度分别达到了0.99和0.97。利用机器学习模型,从NORMAN清单中共筛选了245种可疑的AR激动剂,包括糖皮质激素、胆固醇代谢物和心血管药物。分子对接结果进一步显示,大多数可疑的AR激动剂均可与人类AR中的Asn705、Gln711、Arg752和Thr877残基以及5种鱼类AR中相应位点残基结合,对鱼类具有潜在的雄激素效应。
引言
内分泌干扰物(EDCs)是生态毒理学领域研究的热点之一。EDCs可与核受体(NRs)相互作用如雄激素受体(AR),直接或间接干扰激素合成,导致鱼类生殖发育异常。大量研究表明,外源雄激素激动剂对斑马鱼(Danio rerio), 青鳉鱼(Oryzias latipes)和黑头呆鱼 (Pimephales promelas) 的生殖功能和性特征有强烈影响。睾酮衍生的孕激素左炔诺孕酮和去甲睾酮是雄激素激动剂,可促进睾丸精子成熟,引起斑马鱼雄性化。一些非甾体物质,如全氟烷基酸(PFAAs)和丙氯嗪也会导致斑马鱼雄性增加。化学品在工业、农业和日常生活中的使用越来越多,对鱼类生态风险日趋增加,迫切需要快速筛选可疑的鱼类AR激动剂。
美国环境保护署(U.S. EPA)在2012年开始关注高通量和计算筛选方法来研究AR与化学品之间的结合力。有研究利用定量构效关系(QSAR)和机器学习(ML)方法预测AR结合力,灵敏度(94.7%)和特异性(81.1%)均较高。尽管E-Tox中收集了大量水生生物毒性数据,常用于水生毒性预测,但缺乏公开可用的鱼类NRs高通量分析数据集,这限制了对鱼类AR激动剂的有效预测。本研究旨在通过ML和分子模型的混合方法快速筛选鱼类AR激动剂。我们构建了传统和深度机器学习模型,从NORMAN水相关数据集中筛选了可疑的AR激动剂清单。同时利用AlphaFold2构建斑马鱼、黑头鲦鱼、食蚊鱼、青鳉鱼(Oryzias melastigma)和草鱼的AR分子模型,进一步鉴定了可疑的AR激动剂与鱼类AR结合能力和模式。
图文导读
1. 结合机器学习和分子模型筛选鱼类AR激动剂流程
具体步骤如下:(1)收集和清理训练数据集;(2)生成输入特征;(3)训练机器学习模型;(4)外部验证;(5)使用性能最佳的机器学习模型预测AR激动剂;(6)分析鱼类AR与可疑AR激动剂亲和力和结合方式;(7)实验验证。
Fig. 1. The workflow for screening the suspect AR agonists in the fish species.
图1. 筛选鱼类AR激动剂工作流程
2. 机器学习模型
(1)机器学习模型的性能:使用清洗后训练集的机器学习模型性能远高于使用Tox21原始数据集模型性能(表1)。由表1可以看出,通过训练高质量数据集和Tox21数据集后,模型平衡ACC分别为0.8485 ~ 0.9688和0.6630 ~ 0.7706。同样使用高质量数据集的情况下,相比较于其他传统机器学习和深度学习方法,深度森林表现出最佳的预测性能(表1,图2C)。深度森林模型的灵敏度和f1-score值均高于传统机器学习模型和深度学习模型(表1)。特征输入方面,在相同阈值下,使用分子指纹(MF)和分子描述符(MD)组合特征的深度森林模型AUC和ACC高于使用MF或MD单一特征的深度森林模型。
(2)重要的特征: 通过模型解释发现fr_bicyclic、SMR_VSA4和NumAliphaticCarbocycles是最重要的三个特征(图2D)。fr_bicyclic表示双环结构。SMR_VSA4是一个moe类型描述符,表示MR贡献和表面积贡献。NumAliphaticCarbocycles表示脂肪族(至少含有一个非芳香键)碳环的数目。表明,这些重要特征对于AR激动剂有显著影响(图2D)。
Table 1 Model performances in the test dataset based on the high-quality and Tox21 dataset
表1 基于高质量数据集和Tox21数据集的模型性能
Training set | Model | Features | Testing | AUC | Precision | Sensitivity | F1-score | Balance |
High-quality dataset | DF | MD+MF | 0.9971 | 0.9890 | 1.0000 | 0.9700 | 0.9800 | 0.9688 |
MF | 0.9971 | 0.9890 | 1.0000 | 0.9700 | 0.9800 | 0.9688 | ||
MD | 0.9913 | 0.9880 | 0.9400 | 0.9700 | 0.9500 | 0.9657 | ||
RF | MD+MF | 0.9855 | 0.9516 | 0.9432 | 0.9220 | 0.9320 | 0.9219 | |
MF | 0.9884 | 0.9663 | 0.9675 | 0.9220 | 0.9445 | 0.9235 | ||
MD | 0.9826 | 0.9589 | 0.9205 | 0.9205 | 0.9205 | 0.9204 | ||
ANN | MD+MF | 0.9884 | 0.8343 | 0.9900 | 0.8800 | 0.9300 | 0.8824 | |
MF | 0.9855 | 0.8816 | 0.9600 | 0.8800 | 0.9200 | 0.8808 | ||
MD | 0.9883 | 0.9220 | 0.9600 | 0.9100 | 0.9300 | 0.9102 | ||
SVM | MD+MF | 0.9797 | / | 0.9575 | 0.8485 | 0.8945 | 0.8485 | |
MF | 0.9680 | / | 0.8355 | 0.9125 | 0.8695 | 0.9127 | ||
MD | 0.9709 | / | 0.8495 | 0.9142 | 0.8786 | 0.9142 | ||
DT | MD+MF | 0.9622 | 0.9024 | 0.8135 | 0.8860 | 0.8455 | 0.8861 | |
MF | 0.9767 | 0.8667 | 0.8940 | 0.8940 | 0.8940 | 0.8938 | ||
MD | 0.9593 | 0.8942 | 0.7988 | 0.9080 | 0.8432 | 0.9080 | ||
Tox21 dataset | DF | MD+MF | 0.9649 | 0.7290 | 0.8200 | 0.6600 | 0.7100 | 0.6630 |
MF | 0.9691 | 0.7210 | 0.9000 | 0.6700 | 0.7300 | 0.6652 | ||
MD | 0.9621 | 0.6695 | 0.7800 | 0.6700 | 0.7100 | 0.6695 | ||
RF | MD+MF | 0.9768 | 0.7840 | 0.9451 | 0.7530 | 0.8203 | 0.7530 | |
MF | 0.9754 | 0.7732 | 0.9197 | 0.7523 | 0.8132 | 0.7523 | ||
MD | 0.9740 | 0.7970 | 0.8827 | 0.7672 | 0.8136 | 0.7672 | ||
ANN | MD+MF | 0.9572 | 0.6933 | 0.7600 | 0.7000 | 0.7200 | 0.6964 | |
MF | 0.9663 | 0.6625 | 0.8800 | 0.6800 | 0.7400 | 0.6796 | ||
MD | 0.9543 | 0.7596 | 0.7400 | 0.7200 | 0.7300 | 0.7238 | ||
SVM | MD+MF | 0.9073 | / | 0.6182 | 0.7637 | 0.6546 | 0.7637 | |
MF | 0.8989 | / | 0.6020 | 0.7358 | 0.6331 | 0.7358 | ||
MD | 0.9108 | / | 0.6119 | 0.7263 | 0.6436 | 0.7263 | ||
DT | MD+MF | 0.9459 | 0.7069 | 0.6841 | 0.7212 | 0.7006 | 0.7212 | |
MF | 0.9551 | 0.7104 | 0.7267 | 0.7338 | 0.7302 | 0.7338 | ||
MD | 0.9424 | 0.7094 | 0.6736 | 0.7272 | 0.6961 | 0.7272 |
Fig. 2. The performances of machine learning models.
图2. 性能最佳的机器学习模型
3. 鱼类AR的分子模型
(1)人类和鱼类AR亲缘关系:人类、斑马鱼、黑头鲦鱼、食蚊鱼、青鳉鱼和草鱼的AR氨基酸序列具有共同的保守区域(例如,hAR的残基540 - 906)(图3A)。人类氨基酸序列与5种鱼类AR整体相似度为46.85 ~ 50.46%。
(2)AR的三维结构:五种鱼类之间AR LBD的plDDT评分 > 90(图3C)。得分越高,表明5种鱼类的AR LBD结构质量越高。3D结构比较(图3D)显示,不同物种的蛋白质整体折叠高度保守,与AR序列的相似性一致。
(3)关键残基:两种雄激素(睾酮和雄甾酮)和22种孕激素(如地屈孕酮)常与hAR天冬酰胺(Asn) 705、谷氨酰胺(Gln) 711、精氨酸(Arg) 752和苏氨酸(Thr) 877残基中的一个或多个形成氢键。睾酮、雄甾酮、地孕酮(图3E)和左炔诺孕酮也常与zAR的Asn655、Gln661、Arg702和Thr825;fAR的Asn626, Gln632, Arg673和Thr796;moAR的Asn542、Gln548、Arg589、Thr712;meAR的Asn505、Gln511、Arg552、Thr675;gAR的Asn636, Gln642, Arg683和Thr806一个或多个残基形成氢键。有意思的是,鱼类AR与典型雄激素结合的4个关键残基与hAR 4个重要残基均在对应的位点上,并表现出高度的保守性和同源性(图3A, D)。
Fig. 3. Comparison of AR amino acid sequences and 3D structures between human and the five fish species.
图3. 人类与五种鱼类AR结构比对以及关键的氨基酸残基
4. NORMAN列表中可疑AR激动剂
(1)用ML方法预测AR激动剂:使用性能最佳的两种深度森林模型,在NORMAN水相关数据集中,分别筛选出300个和262个可疑AR激动剂。在这两个可疑AR激动剂列表中,共有245个物质被两个模型均预测为AR激动剂(SI图S7)。去除训练数据集中重叠的化学物质,共获得186个可疑的AR激动剂,包括167种类固醇和11种心血管药物(图4C)。
(2)鱼类ARs的亲和力:这些可疑AR与 hAR、zAR、meAR、fAR、moAR和gAR平均结合亲和力分别为-8.730、-8.366、-9.132、-8.619、-8.874和-9.058 kcal/mol。结合分数越低,亲和力越强。在5种鱼类中,T结合亲和力均接近-10 kcal/mol。地塞米松、氯倍他醇丙酸等糖皮质激素的结合亲和力甚至低于T, < -10 kcal/mol。此外,心血管药物和类固醇转化产物在5种鱼类中也表现出高亲和力。例如,coprostanol, 20, 20-ethylenedioxy-17-hydroxy-1, 4, 6-pregnatrien-3-one, stanozolol, 3 beta, 5 beta-dihydroxy drospirenone ring-opened alcohol impurity, epi-coprostanol, fluticason, rimexolone, fluticason furoate, dexamethasone, dexamethasone 21-isonicotinate对5种鱼类ARs具有高亲和力,表明对5种鱼类具有高风险。虽然人类和鱼类的AR具有较高的同源性,但其结合氨基酸也表现出轻微的物种差异(图4D)。
Fig. 4. Model application.
图4. 模型应用
5. 实验验证
本研究选取了粪甾醇(COP)、司坦唑醇(STA)和地塞米松(DEX)进行实验验证。睾酮(T)作为阳性对照。雄激素受体拮抗剂氟他胺(FLU)作为阴性对照。在35dpf时,T、STA、COP和DEX均显著降低了生殖细胞相关基因ddx4、dnd1、fshb、wee2、zar1和zp3b的转录表达水平,导致斑马鱼雄性化(图5A)。相反,FLU增加了这些基因的转录表达水平,导致雌性化(图5A-C)。重要的是,AR激动剂和FLU联合暴露后,显著削弱了AR途径和生殖细胞发育途径中基因转录表达水平和雄性比例(图5A-D)。因此,FLU 与T、STA、COP和DEX联合暴露后均表现有典型的拮抗效应(图5A-D),该结果也再次验证了虚拟筛选的结果。
Fig. 5. Experimental validation in zebrafish.
图5. 斑马鱼实验验证
结论与意义
本研究通过结合机器学习和分子模型,可有效筛选鱼类AR激动剂,获得可疑AR激动剂清单,并评估其对鱼类种群的生态风险。通过本策略,运用机器学习模型从大数据中快速预测AR激动剂,获得规模较小数据集,为后续分子对接分析提供可疑物质清单,从而聚焦高风险AR激动剂。通过构建鱼类AR受体分子模型,进一步分析可疑AR激动剂与鱼类AR中关键氨基酸结合能力,从而预测其对鱼类潜在的雄激素效应,这对于快速评估新污染物对鱼类生态风险具有重要意义。
全文链接
Xiao-Bing Long, Chong-Rui Yao, Si-Ying Li, Jin-Ge Zhang, Zhi-Jie Lu, Dong-Dong Ma, Chang-Er Chen, Guang-Guo Ying, Wen-Jun Shi*. Screening androgen receptor agonists of fish species using machine learning and molecular model in NORMAN water-relevant list. J. Hazard. Mater. 2024, 468, 133844.
Xiao-Bing Long, Wen-Jun Shi*, Chong-Rui Yao, Si-Ying Li, Jin-Ge Zhang, Zhi-Jie Lu, Dong-Dong Ma, Yu-Xia Jiang, Guang-Guo Ying. Norethindrone suppress the germ cell development via androgen receptor resulting in male bias. Aquat. Toxicol. 2023, 261, 106604.